# @文件：spian.py
# @时间：2024/12/12 12:36
# @作者：Anthony
# @邮箱：不告诉你
import pandas as pd

# 加载三个数据集
file_1 = "cleaned_first.csv"
file_2 = "cleaned_second.csv"
file_3 = "cleaned_third.csv"

df1 = pd.read_csv(file_1)
df2 = pd.read_csv(file_2)
df3 = pd.read_csv(file_3)

# 确保所有数据集的列名一致
df1.columns = ["博物馆名称", "用户名称", "地区", "时间"]
df2.columns = ["博物馆名称", "用户名称", "地区", "时间"]
df3.columns = ["博物馆名称", "用户名称", "地区", "时间"]

# 检查并删除可能存在的空值
df1.dropna(inplace=True)
df2.dropna(inplace=True)
df3.dropna(inplace=True)

# 合并三个数据集
combined_df = pd.concat([df1, df2, df3], ignore_index=True)

# 去重（如果需要）
combined_df.drop_duplicates(inplace=True)

# 按时间排序（如果需要）
combined_df['时间'] = pd.to_datetime(combined_df['时间'], errors='coerce')
combined_df.sort_values(by='时间', inplace=True)

# 保存合并后的数据集
output_file = "cleaned_combined_data.csv"
combined_df.to_csv(output_file, index=False, encoding="utf-8")

print(f"数据已清洗并合并，保存为 {output_file}")
